1
Эволюция архитектур ММЛМ: от визуально-ориентированных к интеграции мультимодальных данных
AI012Lesson 7
00:00

Эволюция архитектур ММЛМ

Эволюция многообластных больших языковых моделей (ММЛМ) означает переход от специализированных модальных изоляторов к единым пространствам представления, где не текстовые сигналы (изображения, звук, 3D) преобразуются в язык, понятный ЛМ.

1. От визуального к мультимодальному

  • Ранние ММЛМ:Основное внимание уделялось трансформерам для изображений (ViT) для задач обработки изображений и текста.
  • Современные архитектуры: Интегрируют звук (например, HuBERT, Whisper) и точечные облака 3D (например, Point-BERT), чтобы достичь истинной мультимодальной интеллектуальности.

2. Мост проекции

Для соединения различных модальностей с ЛМ требуется математический мост:

  • Линейная проекция: Простое отображение, используемое в ранних моделях, таких как MiniGPT-4.
    $$X_{llm} = W \cdot X_{modality} + b$$
  • Многослойный перцептрон: Подход с двумя слоями (например, LLaVA-1.5), обеспечивающий лучшую согласованность сложных признаков за счёт нелинейных преобразований.
  • Переобразователи/абстрагирующие элементы: Современные инструменты, такие как пересборщик (Perceiver Resampler, Flamingo) или Q-Former, которые сжимают многомерные данные в фиксированную последовательность токенов.

3. Стратегии декодирования

  • Дискретные токены: Представление выходных данных как конкретных записей в словаре (например, VideoPoet).
  • Непрерывные встраивания: Использование «мягких» сигналов для управления специализированными генераторами на нижних уровнях (например, NExT-GPT).
Правило проекции
Чтобы ЛМ мог обрабатывать звук или 3D-объект, сигнал должен быть спроектирован в существующее семантическое пространство ЛМ, чтобы он воспринимался как «сигнал модальности», а не как шум.
alignment_bridge.py
TERMINALbash — 80x24
> Ready. Click "Run" to execute.
>
Question 1
Which projection technique is generally considered superior to a simple Linear layer for complex modality alignment?
Token Dropping
Two-layer MLP or Resamplers (e.g., Q-Former)
Softmax Activation
Linear Projection
Question 2
What is the primary role of ImageBind or LanguageBind in this architecture?
To generate text from images
To compress video files
To create a Unified/Joint representation space for multiple modalities
To increase the LLM context window
Challenge: Designing an Any-to-Any System
Diagram the flow for an MLLM that takes an Audio input and generates a 3D model.
You are tasked with architecting a pipeline that allows an LLM to "listen" to an audio description and output a corresponding 3D object. Define the three critical steps in this pipeline.
Step 1
Select the correct encoder for the input signal.
Solution:
Use an Audio Encoder such as Whisper or HuBERT to transform the raw audio waves into feature vectors.
Step 2
Apply a Projection Layer.
Solution:
Pass the audio feature vectors through a Multi-layer MLP or a Resampler to align them with the LLM's internal semantic space (dimension matching).
Step 3
Generate and Decode the output.
Solution:
The LLM processes the aligned tokens and outputs "Modality Signals" (continuous embeddings or discrete tokens). These signals are then passed to a 3D-specific decoder (e.g., a 3D Diffusion model) to generate the final 3D object.